Les Big Data
Durée estimée: 45 minutes
Introduction
Cette leçon aborde le sujet des Données et de l'Information, et en particulier les Big Data, avec l'enjeu du traitement de données énormes en volume.Les données et l'information facilitent la création de connaissances. Le traitement informatique permet et donne sa puissance aux mathodes de traitement de l'information, avec un impact considérable sur de nombreuses disciplines, depuis les arts aux sciences en passant par l'économie. La gestion et l'inteprétation d'une quantité énorme de doénnes brutes est un des fondements de notre société de l'information et de notre économie. Nous utilisons des ordinateurs etd es moyens de calcul pour traduire, traiter et visualiser des données brutes et pour créer de l'information. Les capcacités de calcul et la science informatique facilite et permete une nouvelle compréhension des donénes et de l'information qui contribue à la connaissnce du monde. Dans les leçons qui suivent, vous allez travailler sur les donénes avec divers outils et techniques numériques, pour mieux comprendre les manières variées de transformer des données brutes en informations et en connaissances.
Les Big data intègrent des jeux données si gros et si complexes qu'il est devenu difficile de les traiter avec des outils de gestion de données courants ou des techniques de traitement traditionnels.
Ressources vidéo
- The Economist Video (2:20) Narrated slide show, emphasizes exponential growth
- Link Analytics (3:05) Fast moving overview with lots of quantitative facts
- TedTalk: The best stats you've ever seen (19:53) The first few minutes emphasize the need to communicate effectively with data and shows the gapminder data set
- Explaining Big Data (8:32) Narrated, animated slide show, covers the Hadoop algorithm for processing big data
Introduction aux Big Data
These slides are presented in the following three video segments.
Auto-contrôle
"Plus de 80% des Africains ont un téléphone portable."
Combien de flash drive d'un milliard de teraoctets (terabytes) seraient nécessaires pour stocker cette quantité de données ?
Traiter les Big Data
Auto-contrôle
Exemples de Big Data
Auto-contrôle
Cocher toutes les réponses valides.
Cocher toutes les réponses valides.
Exemple de question posée à l'examen
trois types de tâches sur les données clients pour des entreoprises de taille différente.
Tâche | Petite compagnie (environ 100 clients) |
Compagnie moyenne (environ 1 000 clients) |
Grande compagnie (environ 10 000 clients) |
Sauvegarde des données | 2 heures | 20 heures | 200 heures |
Suppression sélective de données | 100 heures | 200 heures | 300 heures |
Recherche sélective de données | 250 heures | 300 heures | 350 heures |
Tri des données | 0,01 heure | 1 heure | 100 heures |
A partir des informations du tableau, laquelle des tâches suivantes prendra probablement le plus de temps pour une entreprise ayant 100 000 clients ?
Activité: Exploration de jeux de données
Lisez cet article de Wikipedia sur les Big Data, puis examinez de plus près certains des exemples cités dans l'article. Essayez de trouver au moins deux exemples qui vous intéressent. Certaisn de ces exempels comprennent :
- La visualisation des données Data (Reddit gère le site "Data is Beautiful" qui comprend la visualisation de jeux de données intéressants. Explorez ces exemples.)
- Données sur la " qdette des étudiants" (Voici une visualisation intéressante de la dette des étudiants réalisée par le New York Times.)
- Croissance de l'Internet (c'est une représentation interactive de la manière dont Internet a porgressé en relation avec l'introduction de nouvelles technologies.)
Pour votre Portfolio
Créez une page nommée : Données et Information dans la catégorie "Réflexions" de votre portfolio et répondez aux questions suivantes sur les jeux de données que vous avez choisi pour cette activité:- Choisissez un des jeux de données dans la liste citée dans le pargaraphe Activité et faites en une description rapide. Quels sont les types particuliers de données (texe, sons, transactions, etc.) compris dans le je de données que vous avez choisi ?
- Quels faits nouveaux avez vous appris en examinant ce jue de données ? Citez au moins trois faits nouveaux pour vous.
-
REcrivez une question que vous vous posez sur le jeu de données que vous avez choisi. Puis, traduisez cette question sous forme d'hypothèse (une affirmation) sur ce que pourraient révéler les données.
(Les hypothèses doivent avoir la forme suivante : "Si __________, alors _________." Par exemple, une hypothèse sur la dette des étudiants, serait, "Si les coûts de la scolarité sont plus élevés dans une université, la dette des étudiants sera plus élevée." - Par rapport au jeu de données que vous avez choisi, identifiez au moins un enjeu lié à la sécurité et/ou à la protection des donnes personelles.
- Si votre jeu de données comprend une visualisation, indiquez ce que vous trouvez utile dans cette visualisation? Comment pourriez vous la modifier ou l'améliorer ? Si il n y a pas de visualisation, décrivez en une qui serait utile pour comprendre les données.